Adjusting Word Embeddings with Semantic Intensity Orders

clustering words for intensity ordering

首先需要从Google N-gram中抽取形容词的程度顺序信息。使用的方法是基于模版匹配的方法。比如从good but not great我们可以总结出一个规则xx but not xx,然后可以发现后者比前者的程度深。然后使用mixed integer linear programming (MILP)来进行最优化排序。可能的原因是没有完备的信息来进行完整的排序。同时可能存在冲突的顺序。

Adjusting word vectors based on intensity

让同一个cluster中的词距离尽量接近。甚至可以放在一起。

Adjusting weaker/stronger word pairs based on antonyms

这里有一个很有意思的想法,就是他们认为程度更弱的词要和原词的反义词的相似度更高。

Evaluation

这篇文章是为了解决一些QA pair中,Q是一个是否的问题,但是回答需要推断才能知道回答是是还是否。

分享到